查看原文
其他

宝藏级深度数据挖掘:Dr. Tom + GSEA,一键分析,快速解读!

共赴多组学的 华大科技BGITech
2024-11-11
首选科技服务商点击上方蓝字关注


在转录组测序数据分析中,我们常常运用富集分析,将海量的基因数据从基因层面转化为功能层面,深入解析基因和表型之间的相互关系。


01

为什么要使用基因集富集分析(GSEA)?


常用的富集分析方法主要有两种,传统的富集分析(Enrichment Analysis)基因集富集分析(Gene Set Enrichment Analysis,GSEA)


传统的富集分析(通常为GO富集或KEGG富集)会针对所有的差异基因(DEG),通过超几何检验,找出显著富集的功能或通路。然而,这种方法有一个小问题:它只关注差异基因,可能会忽略那些表达变化不大、但对代谢通路有调控性影响的基因。另外,传统的富集分析仅反映差异基因的分布情况,没有考虑基因的表达量及变化趋势,基因是上调还是下调并不会影响富集的结果。所以,传统的富集并不能告诉我们具体的功能通路是被激活还是被抑制。


想要具体探究功能/通路的表现情况,我们可以使用GSEA。GSEA考虑了所有表达的基因在比较组中的差异表达情况,通过判断某一预定义基因集(即某一具体的通路/功能)中的大部分基因在比较组中是否发生了高表达/低表达,从而说明对应的功能是否发生显著变化,以及发生了怎样的变化(激活或抑制)。



02

GSEA分析原理


在进行GSEA分析时,首先按照差异表达(通常采用Singal2Noise值,计算方法见下*)的由高到低对所有表达的基因进行排序,然后依次将基因与预定义好的基因集(即注释好的功能/通路)进行比较。若基因存在于该功能通路中,则得分,若不存在,则减分。当遍历完所有基因后,可绘制出该功能通路的得分曲线。以遍历过程中累计得分绝对值最大的分数作为功能/通路的富集得分(Enrichment Score, ES)。对ES进行显著性检验,获得名义P值(nominal p value)。对ES进行标准化处理,获得校正后的富集得分(Normalized Enrichment Score, NES)。对NES进行多重假设检验获得FDR值。

其中,μT为处理组各样本该基因表达量的平均值,μC为对照组各样本该基因表达量的平均值;δT为处理组各样本该基因表达量的标准差,δC为对照组各样本该基因表达量的标准差。



03

GSEA官方数据库:MSigDB


那么,我们在做GSEA分析时,预定义的基因集从哪里来呢?


GSEA官方提供了一个注释数据库——MSigDB,其中收录了33,591个人的预定义基因集和16,063个小鼠的预定义基因集,并会不断进行更新。虽然其他物种的信息暂未收录,但我们仍然可以根据自己的需求使用其他的注释数据库(如GO、KEGG等)中的通路或功能条目作为预定义基因集,用GSEA的分析方法进行富集分析。



04

GSEA分析工具使用


GSEA官网上提供了开源软件,用户可以自行下载使用。为了给我们的合作伙伴提供便利,我们在Dr. Tom多组学数据挖掘系统上提供了GSEA分析工具,可无限使用。通过简单的参数设置,则可快速进行GSEA分析。


在工具箱中选择GSEA工具,按照图示步骤定义好分析参数后,提交分析任务,可在系统上一键查看结果。



05

GSEA结果查看及解读


Dr. Tom系统中,GSEA分析结果主要分为三个区域:功能/通路表、图区及对应的基因表格。


功能/通路表中包含各预定基因集对应的ES、NES、名义P值、FDR值等计算结果。


注意,功能/通路表区分了对照组和处理组,在处理组中的功能/通路,其ES为正值,说明该功能/通路在排序列表的顶部(在处理组中表达上调的基因)富集,该功能/通路在处理组中被激活;而在对照组中的功能/通路,其ES为负值,说明该功能/通路在排序列表的底部(在处理组中表达下调的基因)富集,说明这些功能/通路在处理组中被抑制。名义P值通常以P<0.05作为判断标准,P值越小,统计显著性越高;FDR通常以FDR<0.25作为判断标准,FDR越小,富集结果越可靠。当然,标准不是固定的,根据不同的课题背景及数据情况,阈值可适当调整。


在功能/通路表中点击对应通路的Figure按钮,图区会显示该功能/通路的分析结果。



领头亚集中的基因是对ES贡献最大的基因集合,当需要回归到基因层面的研究时可考虑优先关注这部分基因。ES值为正值的功能/通路,领头亚集位于ES对应排序的基因之前;ES值为负值的功能/通路,领头亚集位于ES对应排序的基因之后。


单击领头亚集区域,在基因表格中会展示领头亚集基因的信息,可以使用其他的可视化工具做进一步的挖掘,如绘制这些基因的表达量热图,通过PPI网络图寻找这些基因中的关键基因等。


06

GSEA分析应用案例

  //  


发表期刊:Molecular Cancer

发表时间:2022年

影响因子:17.794


摘要:环状RNA(circRNA)介导肿瘤相关巨噬细胞(TAM)的浸润,以促进各种类型癌症的发生和发展,但在调节前列腺癌(PCa)巨噬细胞中的作用仍不确定。本研究首先通过RNA-seq、qRT-PCR等手段确定环状RNA circSMARCC1为研究目标,并确认circSMARCC1与小RNA miR-1322直接结合并抑制miR-1322的功能。而后研究circSMARCC1在前列腺癌巨噬细胞调控中的具体机制。


实验设计:对过表达circSMARCC1的前列腺癌癌细胞(DU145-lv-circSMARCC1)及前列腺癌癌细胞DU145-vector进行转录组测序,比较基因表达的情况并做功能分析。


结果:与DU145-vector相比,DU145-lv-circSMARCC1细胞中有151个基因上调,209个基因下调。KEGG富集及GSEA分析结果表明,PI3K-Akt通路发生富集,且与circSMARCC1过表达呈正相关。circSMARCC1通过激活参与细胞增殖和上皮间质转化的Akt通路,促进PCa进展。

注:文章中的富集分析及GSEA富集分析均在Dr. Tom多组学数据挖掘系统中完成。上文仅展示文章中部分结果。



目前,虽然GSEA分析方法在转录组数据的分析中的应用已经非常广泛和成熟,但传统的富集分析也并非无可取之处,在实际应用时应结合研究背景、研究目的、数据情况及分析结果综合判断,选择最适合的结果



最近微信改版了

大家记得把华大科技“星标”⭐哦

从此科研资讯不迷路~


撰稿:鱼

编辑:市场部


近期热文

▶ 上新 | CUT&Tag,解锁更精准更高效的蛋白质与DNA互作研究

▶ 单细胞生物信息培训班全国巡讲首站在深圳圆满落幕!

▶ 最新实测数据公布!长读长最新平台助力多组学研究

▶ 天坛医院等单位绘制万人卒中多组学图谱,建立该领域迄今最大规模的多组学平台

▶ 空间蛋白质组又双叒叕升级啦!超高分辨率至0.002mm²,助力精准探索生命奥秘


了解更多产品服务及资讯,关注我们!


点击“阅读原文”直达Dr. Tom网页

继续滑动看下一个
华大科技BGITech
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存